DINOv2: Learning Robust Visual Features without Supervision

Oquab, Maxime; Darcet, Timothée; Moutakanni, Théo; Vo, Huy; Szafraniec, Marc; Khalidov, Vasil; Fernandez, Pierre; Haziza, Daniel; Massa, Francisco; El-Nouby, Alaaeldin; Assran, Mahmoud; Ballas, Nicolas; Galuba, Wojciech; Howes, Russell; Huang, Po-Yao; Li, Shang-Wen; Misra, Ishan; Rabbat, Michael; Sharma, Vasu; Synnaeve, Gabriel; Xu, Hu; Jegou, Hervé; Mairal, Julien; Labatut, Patrick; Joulin, Armand; Bojanowski, Piotr

Computer Science > Computer Vision and Pattern Recognition

arXiv:2304.07193 (cs)

[Submitted on 14 Apr 2023 (v1), last revised 2 Feb 2024 (this version, v2)]

Title:DINOv2: Learning Robust Visual Features without Supervision

Abstract:The recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in computer vision. These models could greatly simplify the use of images in any system by producing all-purpose visual features, i.e., features that work across image distributions and tasks without finetuning. This work shows that existing pretraining methods, especially self-supervised methods, can produce such features if trained on enough curated data from diverse sources. We revisit existing approaches and combine different techniques to scale our pretraining in terms of data and model size. Most of the technical contributions aim at accelerating and stabilizing the training at scale. In terms of data, we propose an automatic pipeline to build a dedicated, diverse, and curated image dataset instead of uncurated data, as typically done in the self-supervised literature. In terms of models, we train a ViT model (Dosovitskiy et al., 2020) with 1B parameters and distill it into a series of smaller models that surpass the best available all-purpose features, OpenCLIP (Ilharco et al., 2021) on most of the benchmarks at image and pixel levels.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2304.07193 [cs.CV]
	(or arXiv:2304.07193v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2304.07193

Submission history

From: Timothée Darcet [view email]
[v1] Fri, 14 Apr 2023 15:12:19 UTC (6,968 KB)
[v2] Fri, 2 Feb 2024 10:24:09 UTC (6,776 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:DINOv2: Learning Robust Visual Features without Supervision

Submission history

Access Paper:

References & Citations

1 blog link

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:DINOv2: Learning Robust Visual Features without Supervision

Submission history

Access Paper:

References & Citations

1 blog link

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators